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UITTREKSEL 

Automatische interpretatiebewerkingen, zoals karakterherkenning, vereisen een 
binair beeld van informatiedragende beeldelementen en achtergrond. Digitale 
5 beeldgegevens die zijn geproduceerd door een kleurbevattend document te scannen, 
bevatten vaak veel verschillende kleuren, zodat een indeling in informatiedragende 
beeldelementen en achtergrond niet evident is. 

Volgens de uitvinding worden in het digitale beeld verbonden componenten 
(aaneengrenzende pixels met eenzelfde kleur) ingedeeld als achtergrond- en andere 
10 verbonden componenten, waarna de genoemde andere verbonden componenten 
volgens een voorafbepaald criterium worden toegewezen aan hetzij de achtergrond, 
hetzij een voorgrond. De voorgrond-verbonden-componenten worden samengesteld tot 
informatie-elementen, die geschikt zijn voor de automatische interpretatiebewerking. 
De verdeling in informatiedragende beeldelementen en achtergrond kan worden 
1 5 voorafgegaan door een kleurquantisatiebewerking van de digitale beeldgegevens. 
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Interpretatie van gekleurde documenten 



5 De uitvinding betreft een werkwijze voor het extraheren van informatie- 

elementen in een kleurbevattend digitaal beeld ten behoeve van een automatische 
interpretatie-bewerking. 

Een dergelijke automatische interpretatie-bewerking is bijvoorbeeld automatische 
lay-out-analyse, automatische optische karakterherkenning of automatische herkenning 
10 van waardepapieren, en met "informatie-elementen" wordt bijvoorbeeld bedoeld: 
karakters. 

Het extraheren van informatie-elementen uit een in zwart/wit uitgevoerd 
documentbeeld en een daaropvolgende automatische lay-out-analyse is bekend, 
bijvoorbeeld uit EP 0 629 078 B, maar ook andere methoden zijn bekend uit de 

15 literatuur. Verschillende andere methoden worden genoemd in de inleiding van het 
genoemde Europese octrooi. 

De bekende methoden werken meestal door in een digitaal beeld dat bijvoorbeeld 
is gevormd door een document te scannen met een electro-optische scanner, groepen 
van aaneengrenzende pixels van gelijke kleur ("verbonden componenten" ofwel 

20 "connected components") te onderscheiden in informatiedragende (voorgrond-) groepen 
en achtergrond-groepen, en de informatiedragende groepen te classificeren in types, 
zoals (bijvoorbeeld) karakters, lijnen, foto's, etc. Vervolgens kunnen de 
informatiedragende pixelgroepen, of een selectie daarvan, overeenkomend met een 
beperkte verzameling types, worden ge-extraheerd voor een verdere interpretatie- 

25 bewerking. 

De genoemde methoden gaan uit van een binair beeld in zwart en wit, dat wil 
zeggen een beeld van binaire pixels. Zulke pixels hebben slechts twee mogelijke 
waarden: aan of uit, 0 of 1 , wit of zwart. De ene mogelijke waarde, bijvoorbeeld zwart, 
wordt als informatiedragend beschouwd, terwijl de andere waarde, dus wit, als niet- 

30 informatiedragend ofwel achtergrond geldt. Deze methoden kunnen niet zonder meer 
op kleurbevattende digitale beelden worden toegepast, omdat zulke beelden pixels 
bevatten met verschillende kleuren, die niet zonder meer kunnen worden ingedeeld in 
de twee klassen "informatiedragend" en "achtergrond". Zowel de informatie als de 
achtergrond kunnen namelijk gekleurd zijn, terwijl niet a priori bekend is, welke kleur 

35 welke functie heeft. 
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Bovendien bevat een kleurenbeeld vaak nog fouten, kleine gebiedjes met een 
afwijkende kleur, ten gevolge van het beperkte oplossende vermogen van de scanner, 
ruis en/of registerfouten bij het afdrukken van het gescande kleurendocument. Dit uit 
zich bijvoorbeeld in pixels met een overgangskleur langs de randen van karakters. Als 

5 voorbeeld wordt verwezen naar Fig. 1 , waarin een detail van een gescand 

documentbeeld wordt getoond, waarin de als gevolg van scannerfouten verkeerd 
gekleurde pixels gearceerd worden weergegeven. 

Zulke verkeerd gekleurde gebiedjes leveren problemen op, omdat zij de 
interpretatie-bewerking verstoren. 

10 Gekleurde beelden bevatten vaak zeer veel verschillende kleuren. Ook dit levert 

problemen op bij extractie-bewerkingen, omdat alle in het beeld voorkomende kleuren 
afzonderlijk moeten worden ingedeeld als informatie-dragend of achtergrond. Het is 
daarom aantrekkelijk om de verzameling in een document voorkomende kleuren eerst 
te quantiseren in een beperkt aantal kleurgroepen. 

15 Technieken om kleuren te quantiseren zijn beschreven in de literatuur, 

bijvoorbeeld in Sobottka, K. et al.: "Identification of text on colored book and journal 
covers", Fifth International Conference on Document Analysis and Recognition, Sept. 
1999, pp. 57-62, en in aanvraagsters Nederlandse octrooiaanvrage nr. 1013669. In 
beide documenten wordt de kleurquantisatie uitgevoerd als voorbereiding voor een 

20 interpretatie-bewerking. Volgens deze methoden worden de kleuren die in een digitaal 
beeld voorkomen gegroepeerd in een beperkt aantal clusters en worden alle kleuren die 
in een zekere cluster liggen, gekarakteriseerd door een kleurcode voor die cluster. 
Locaal is er dan meestal nog maar een zeer klein aantal verschillende kleurcodes 
aanwezig, zodat een onderscheid tussen informatie-elementen en achtergrond veel 

25 eenvoudiger wordt. 

Overigens wordt hierdoor het probleem van verkeerd gekleurde gebiedjes langs de 
randen van informatie-elementen niet opgelost, want deze kunnen bij quantisatie 
afwijkende kleurcodes krijgen, met name wanneer in het beeld op andere plaatsen 
beeldelementen met (vrijwel) dezelfde kleur als de bedoelde "verkeerde" kleur 

30 voorkomen. Ook kan er juist door de quantisatie een situatie ontstaan, waarin 
informatie-elementen in onderdelen met verschillende kleurcodes uiteenvallen, 
waardoor zo een informatie-element als geheel onherkenbaar wordt voor een verder 
bewerkingsproces. 

In de genoemde Nederlandse octrooiaanvrage wordt een nabewerking van het aan 
35 kleurquantisatie onderworpen beefd voorgesteld, die bestaat uit het vaststellen van 
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karaktercontouren met behulp van chain-coding. Hierbij wordt een contour 
geconstrueerd als scheiding tussen de pixels met een kleurcode die afwijkt van die van 
de omgevende achtergrond en de pixels met de kleurcode van de achtergrond. De 
verdere verwerking geschiedt dan op de contouren, zonder nog naar de oorspronkelijke 
5 kleurcodes te kijken. 

Nadeel van deze nabewerkingsmethode is, dat alle van de achtergrondkleur 
afwijkende pixels worden beschouwd als te behoren bij het informatie-element of 
karakter, ook als zij eigenlijk tot de achtergrond behoren. Opnieuw verwijzend naar Fig. 
1 , zal deze bekende methode de twee cijfers als een geheel extraheren en als gevolg 
10 daarvan kunnen fouten optreden bij een OCR-bewerking. 

Het zij hierbij opgemerkt, dat kleurquantisatie alleen nodig is, wanneer het te 
bewerken beeld veel kleuren bevat. Is dit niet het geval, dan kan quantisatie overbodig 
zijn. 

De uitvinding heeft tot doel om een verbeterde bewerking van kleurenbeelden te 
15 verschaffen, waardoor een automatische interpretatie-bewerking nauwkeuriger 
resultaten kan bereiken. 

De uitvinding omvat daartoe de volgende stappen: 

- het in het digitale beeld onderscheiden van verbonden componenten, bestaande uit 
aaneengrenzende pixels met eenzelfde kleur, 

20 - het indelen van verbonden componenten in achtergrond - verbonden componenten en 
andere verbonden componenten en het groeperen van aaneengrenzende genoemde 
andere verbonden componenten, 

- het toewijzen van verbonden componenten van een groep aaneengrenzende 
genoemde andere verbonden componenten aan een voorgrond of aan de achtergrond 

25 op grond van een voorafbepaald toewijzingscriterium, 

- het samenvoegen van aaneengrenzende, aan voorgrond toegewezen verbonden 
componenten en het extraheren van een samengevoegd geheel als een informatie- 
element. 

In een uitvoeringsvorm van de uitvinding bevat de werkwijze een 
30 voorbereidingsstap, omvattende 

- het quantiseren van de in een te bewerken digitaal beeld voorkomende kleuren in een 
beperkt aantal gequantiseerde kleuren. 

Deze voorbereidingsstap is nodig wanneer het te bewerken beeld veel 
verschillende kleuren bevat. Dit zal vaak het geval zijn. In dat geval dient de term "kleur" 
35 in deze beschrijving te worden gemterpreteerd als "gequantiseerde kleur". 
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In een verdere uitvoeringsvorm is het genoemde toewijzingscriterium gebaseerd 
op een vergelijking van de kleur van een toe te wijzen verbonden component met de 
kleuren van de groep genoemde andere verbonden componenten waartoe de toe te 
wijzen verbonden component behoort en met de kleur van een achtergrond - verbonden 

5 component die de toe te wijzen verbonden component althans gedeeltelijk omgeeft. 
Meer bepaald wordt de kleur van een toe te wijzen verbonden component 
vergeleken met het gemiddelde van de kleuren van de groep verbonden componenten 
waartoe de toe te wijzen verbonden component behoort en met de kleur van de 
achtergrond - verbonden component. 

10 In een nog verdere uitvoeringsvorm worden de genoemde andere verbonden 

componenten eerst ingedeeld in typen en worden alleen verbonden componenten van 
voorafbepaalde typen geanalyseerd met het genoemde toewijzingscriterium. 

De keuze van de geanalyseerde component-typen wordt bepaald door de 
specifieke automatische interpretatie-bewerking en heeft tot doel om het aantal te 

15 analyseren verbonden componenten te beperken, hetgeen ten goede komt aan de 
bewerkingstijd en de robuustheid van de bewerking. Wanneer bijvoorbeeld de 
interpretatie-bewerking karakter-herkenning is, zal het alleen interessant zijn om die 
verbonden componenten te analyseren die mogelijk deel kunnen uitmaken van een 
karakter. 

20 De uitvinding omvat voorts een inrichting waarin de uitvinding wordt toegepast. 

De uitvinding, waaronder begrepen het kwantiseren van kleuren van een afbeelding 
alsook de combinatie van het kwantiseren van kleuren van een afbeelding en het 
interpreteren van dat beeld, kan worden uitgevoerd in een daartoe geschikt 
geprogrammeerde computer en betreft daarom eveneens een computerprogramma en 

25 een opslagmedium waarop het computerprogramma is opgeslagen. 

De uitvinding zal nu worden toegelicht aan de hand van de bijgevoegde figuren. 
Hierin is: 

Fig. 1 een weergave van een detail van een gescand kleurenbeeld; 
Fig. 2 een schematische weergave van de gebruiksomgeving voor de huidige uitvinding; 
30 Fig. 3 een schematisch weergave van de samenstellende onderdelen van een inrichting 
volgens de uitvinding; 

Fig. 4 een beslissingsschema voor indeling van verbonden componenten in typen; 
Fig. 5 een stroomschema van de werking van een toewijzingmodule volgens de 
uitvinding; 

35 Fig. 6 A, B, C en Fig. 7 A, B, C weergaven van digitale beelden in verschillende stadia 
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van bewerking. 

Fig. 2 toont een omgeving waarin de huidige uitvinding met vrucht kan worden 
toegepast. 

Getoond wordt een samenstel van een bron-eenheid 20 voor een digitaal 

5 kleurenbeeld, bijvoorbeeld een elektro-optische scanner 10 voor het scannen van een 
document of een opslageenheid 1 1 met scandata, een voorbewerkingseenheid 21 
volgens de huidige uitvinding, die informatie-elementen extraheert, en een of meer 
interpretatie-eenheden, in dit voorbeeld een lay-out-analyse-eenheid 22 die een 
onderlinge samenhang van informatie-eenheden vaststelt en een karakterherkennings 

10 (OCR)-eenheid 23 die het zo gevonden tekstbeeld omzet in tekstcode, die verder 
digitaal te verwerken is. De eenheden 21 , 22 en 23 kunnen zijn ge-implementeerd in 
een geschikt geprogrammeerde computer 1 2. De resultaten kunnen bijvoorbeeld 
worden opgeslagen in een geheugen-eenheid 1 3. 

Karakters zijn niet altijd eenvoudig te herkennen in een gescand kleurenbeeld. 

15 Een kleurenscan bevat namelijk vaak veel verschillende kleuren, ook als het gescande 
beeld slechts enkele (hoofd)kleuren heeft. Drukfouten in het gescande document, ten 
gevolge van registerfouten in het drukproces, en scanfouten ten gevolge van ruis en het 
beperkte oplossende vermogen van de scanner kunnen afwijkend gekleurde pixels of 
gebiedjes van pixels veroorzaken, die niet zonder meer kunnen worden herkend en 

20 verwijderd. Deze afwijkend gekleurde gebiedjes veroorzaken interpretatiefouten, en het 
is de functie van de voorbewerkingseenheid 21 om informatie-elementen te extraheren, 
die zijn ontdaan van zulke verstoringen. 

De verschillende onderdelen van de voorbewerkingseenheid 21 zijn weergegeven 
in Fig. 3 en omvatten de volgende modules: 

25 - een kleurquantisatiemodule 31 voor terugbrengen van het aantal kleuren in het beeld 
tot een beperkt aantal 

- een classificatiemodule 32 voor het inventariseren van de in het beeld voorkomende 
verbonden componenten en het indelen daarvan in typen 

- een selectiemodule 33 voor het selecteren van de verbonden componenten van 
30 bepaalde typen 

- een verdelingsmodule 34 voor het verdelen van de geselecteerde verbonden 
componenten in achtergrond - verbonden componenten en niet-achtergrond - 
verbonden componenten en het groeperen van de laatstgenoemde in eilanden van 
aan elkaar grenzende verbonden componenten 

35 - een toekenningssmodule 35 voor het toekennen van de verbonden componenten van 
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een eiland aan de voorgrond en de achtergrond, en 

- een samenstellingsmodule 36 voor het samenstellen van de verbonden componenten 
van een eiland, die behoren tot de voorgrond, tot een informatie-element. 

De werking van deze modules zal nu worden beschreven. 
5 De kleurquantisatiemodule 31 heeft tot doel om een indeling in voorgrond- en 

achtergrond-elementen mogelijk te maken. Kleur alleen is hiervoor immers een 
onvoldoende criterium, en dus moet elke verbonden component als potentieel 
informatiedragend worden beschouwd. Omdat in een digitaal kleurenbeeld 24 bits 
gebruikt worden om een kleur te beschrijven, zal een gescand kleuren beeld al snel een 

10 groot aantal verschillende kleuren bevatten. Door kleurquantisatie wordt het aantal 
kleuren sterk verkleind. 

Er zijn verschillende methoden om kleuren te quantiseren. In aanvraagsters 
Nederlandse octrooiaanvrage nr. 1013669 wordt een methode beschreven, waarin de 
kleurenruimte wordt verdeeld in een klein aantal compartimenten die elk een 

15 concentratie van in het beeld aanwezige kleuren bevatten. Alle kleuren in een 

compartiment krijgen een gelijke kleurcode. In Sobottka, K. et al.: "Identification of text 
on colored book and journal covers", Fifth International Conference on Document 
Analysis and Recognition, Sept. 1999, pp. 57-62, wordt voorgesteld om een 
driedimensionaal histogram van kleuren op te stellen. Vervolgens wordt voor iedere 

20 histogram-cel een pointer naar de hoogste buurcel vastgesteld. Aldus wordt rond elk 
locaal maximum in het histogram een gebied gedefinieerd, welk gebied in zijn geheel 
een kleurcode krijgt toegewezen. 

Hier zijn slechts twee kleurquantisatiemethoden beschreven, maar er zijn er meer 
bekend. De keuze van een methode is arbitrair en behoort niet tot de huidige uitvinding. 

25 De kleurquantisatiemodule 31 levert een digitaal beeld met een beperkt aantal 

kleuren af aan de classificatiemodule 32, die alle pixels van het digitale beeld classeert 
in verbonden componenten en de verbonden componenten indeelt naar type. Een 
verbonden component is een groep aaneengrenzende pixels met dezelfde kleurcode. 
Om elke verbonden component wordt een grensbox gelegd, dat is de kleinste rechthoek 

30 die om de verbonden component heen past. 

Vervolgens worden voor elke verbonden component de volgende attributen 
gemeten: 

- de coordinaten van de linkerbovenhoek (xO, yO) en rechterbenedenhoek (x1 , y1) van 
de grensbox 

35 - de grootte (het aantal pixels van de verbonden component) 
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- de kleurcode van de verbonden component 

- de gemiddelde waarde en de standaarddeviatie SDEV van de (werkelijke) kleuren in 
de verbonden component. 

Uit deze attributen worden de volgende eigenschappen van de verbonden component 
5 berekend: 

- de breedte 

- de hoogte 

- het oppervlak A 

- de grootste maat B (= max (breedte, hoogte)) 
10 -de kleinste maat S (= min (breedte, hoogte)) 

- aspectverhouding AR (= (grootste maat)/(kleinste maat)) 

- de bedekkingsgraad C, d.i. het bedekte gedeelte van de grensbox 
(= grootte/(breedte x hoogte)) 

Met behulp van de aldus berekende eigenschappen wordt een verbonden 

15 component ingedeeld in een van de volgende typen: 
NOISE: klein element zonder betekenis 

HLINE: (gedeelte van) een horizontale lijn 

VLINE: (gedeelte van) een verticale lijn 

SMALL: klein karakter of deel van een karakter 

20 CHAR: karakter 

PHOTO: (deel van) een foto 

GRAPH: grafisch element 

BACKGR: groot, homogeen achtergrondveld 

UNKNOWN: niet definieerbaar 

25 De classering wordt uitgevoerd met behulp van een beslissingsboom die is 

weergegeven in Fig. 4. Deze figuur spreekt grotendeels voor zichzelf. In een aantal 
stappen wordt gebruik gemaakt van een voorafgekozen drempelwaarde T. De waarde 
hiervan kan experimenteel bepaald worden. De waarde 3,5 mm, zijnde een in 
documenten veelgebruikte karaktergrootte, blijkt goed te voldoen. Overigens zijn ook de 

30 andere aangegeven drempelwaarden slechts als voorbeeld bedoeld. 

Voor de verdere bewerking worden alleen verbonden componenten van 
voorafbepaalde types geselecteerd. De keuze van deze types is afhankelijk van de 
specifieke interpretatie-bewerking die volgt. In dit voorbeeld wordt als interpretatie- 
bewerking karakterherkenning toegepast. Hiervoor zijn alleen die verbonden 

35 componenten benodigd, die zelf een karakter of een deel daarvan kunnen zijn, namelijk: 
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CHAR, NOISE, SMALL en UNKNOWN. Bovendien worden de verbonden componenten 
van type BACKGR geselecteerd. De betreffende selectie wordt uitgevoerd door de 
selectiemodule 33, die de geselecteerde verbonden componenten doorgeeft aan de 
indelingsmodule 34. 

5 De indelingsmodule 34 groepeert verbonden componenten die niet van het type 

achtergrond zijn in zogenaamde "eilanden", waarbij een "eiland" een geheel is van aan 
elkaar grenzende verbonden componenten. De "eilanden" worden doorgegeven aan de 
toewijzingsmodule 35, die vaststelt, welke verbonden componenten tot het informatie- 
element behoren. Een "eiland" bevat immers in de regel een aantal verbonden 

1 0 componenten waarvan een deel behoort tot een informatie-element en een ander deel 
tot de achtergrond. 

De toewijzingsmodule 35 voert een procedure uit die is weergegeven in Fig. 5, en 
is gebaseerd op een voorafbepaald toewijzingscriterium met betrekking op de kleuren 
van "eiland" en omgevende achtergrond. Volgens het toewijzingscriterium wordt een 

15 verbonden component toegewezen aan een voorgrond (informatiedragend) of de 
achtergrond (niet informatiedragend). 

In een eerste stap S1 wordt de RGB-waarde van de achtergrond-component die 
het "eiland" omgeeft vastgesteld. Indien het "eiland" juist op de grens van twee of zelfs 
meer achtergrond-componenten is gelegen, wordt in deze stap de gemiddelde RGB- 

20 waarde van de omgevende achtergrons-componenten berekend, bijvoorbeeld door 
eenvoudige middeling van de R-, G-, respectievelijk B-waarden. Ook kan hier een 
gewogen gemiddelde, bijvoorbeeld naar oppervlakte, worden gebruikt. 

Vervolgens wordt in stap S2 de gemiddelde RGB-waarde van de verbonden 
componenten in het "eiland" berekend, bijvoorbeeld door eenvoudige middeling van de 

25 R-, G-, respectievelijk B-waarden. Ook kan hier een gewogen gemiddelde, bijvoorbeeld 
naar oppervlakte, worden gebruikt. 

Dan wordt voor iedere verbonden component (stappen S3, S8, S9) de eigenlijke 
toewijzingsprocedure (S4 - S7) uitgevoerd. In stap S4 worden de afstanden in de 
kleurenruimte tussen de RGB-waarde van de onderzochte verbonden component en de 

30 (eventueel gemiddelde) RGB-waarde van de achtergrond, respectievelijk de 
gemiddelde RGB-waarde van het "eiland" berekend. Deze afstanden worden 
vergeleken (S5) en de onderzochte verbonden component wordt toegewezen aan de 
voorgrond, als de afstand tot de "eiland"-waarde kleiner is dan die tot de achtergrond- 
waarde (S6), en aan de achtergrond in het andere geval (S7). 

35 In dit voorbeeld wordt met de RGB-waarde van een element de RGB-waarde van 
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de gequantiseerde kleur daarvan bedoeld. In een alternatieve vorm zou hiervoor ook de 
gemiddelde RGB-waarde van de oorspronkelijke kleuren van alle afzonderlijke pixels 
van zo een element kunnen worden gebruikt. 

Tenslotte worden de resultaten van de toewijzing doorgegeven aan de 
5 samenstellingsmodule 36, die de voorgrond - verbonden componenten samenstelt tot 
afzonderlijke informatie-eenheden. Deze worden, met hun posities, doorgegeven aan 
de interpretatie-eenheden. 

Nu alle elementen in het digitale beeld zijn ingedeeld in twee categorieen, 
namelijk voorgrond en achtergrond, kunnen de conventionele interpretatie-bewerkingen 

10 worden toegepast, in dit voorbeeld lay-out-analyse, gevolgd door karakterherkenning. 
Lay-out-analyse is bijvoorbeeld beschreven in EP 0 629 078 B en in andere 
documenten, waarvan er enkele genoemd zijn in de inleiding van EP 0 629 078 B. Deze 
bewerking maakt geen deel uit van de huidige uitvinding. 

Voorbeelden van de werking van de voorbewerkingseenheid 21 zoals die 

15 hierboven is beschreven worden getoond in Fig. 6 A, B en C en Fig. 7 A, B en C. In Fig. 
6 A is een sterk vergroot gedeelte van een gescand beeld weergegeven. De grijstinten 
in de figuur geven verschillende kleuren aan, waarvan sommige onderling maar weinig 
verschillen. Het is vooreen automaat niet a priori vast te stellen, welke pixels 
informatiedragend zijn en welke niet, ook at heeft een menselijke waarnemer hier in het 

20 geheel geen moeite mee. Wanneer alle pixels met een kleur die afwijkt van de 

achtergrond zouden worden toegekend aan de voorgrond, dus aan het informatie- 
element, dan zouden de drie afgebeelde cijfers een geheel vormen, omdat er tussen de 
afzondelijke cijfers "bruggen" (51 , 52) van pixels met een overgangskleur liggen. Deze 
overgangskleuren zijn het gevolg van de beperkte resolutie van de scanner, waardoor 

25 op de randen van de cijfers pixels worden gegenereerd met een grijstint die met de 
gemiddelde grijswaarde van het gedeeltelijk witte, gedeeltelijk zwarte pixel 
overeenkomen. Bovendien veroorzaakt het optische systeem van de scanner 
overstraling van de overgangen tussen voor- en achtergrond, wat resulteert in de 
geconstateerde "bruggen". 

30 De scandata worden vervolgens onderworpen aan een kleurquantisatie in de 

module 31 , en het resultaat daarvan wordt getoond in Fig. 6 B. De verschillende 
grijstinten hierin corresponderen met verschillende gequantiseerde kleuren. Duidelijk is 
te zien, dat de begrenzingen van de cijfers nog steeds verschillende kleuren bevatten, 
en dat de quantisatie in dit geval ook niet heeft geleid tot eliminatie van de "bruggen" 51 , 

35 52. Ondanks de beperking in het aantal kleuren is verdere automatische interpretatie 
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nog steeds niet niet goed mogelijk. 

Fig. 6 C toont het resultaat van de modules 32 - 36, waaruit blijkt, dat nu alle 
storingen zijn verwijderd, zodat de scandata nu geschikt zijn voor verdere interpretatie . 
In Fig. 7 A is een andere verstoring van de scandata weergegeven. Hierin zijn 

5 kleurverschillen aanwezig in de karakters, zoals bijvoorbeeld zichtbaar is in het 

bovenste gedeelte van de letter "a", dat uit twee verschillend gekleurde stukken 53, 54 
bestaat. Bij de daaropvolgende kleurquantisatie blijken deze verschillende kleuren in 
verschillende kleurcodes 55, 56 gequantiseerd te worden (Fig. 7 B). Deze opdeling kan 
ontstaan, wanneer de gemiddelde kleur van een karakter juist op de grens ligt van twee 

10 gequantiseerde kleuren. Zeer kleine kleurverschillen in het gescande beeld van het 
karakter kunnen dan juist de grens overschrijden en nu eens de ene, dan weer de 
andere gequantiseerde kleur doen selecteren. 

Dit effect maakt automatische interpretatie geheel onmogelijk, omdat er nu zelfs 
geen basisvormen meer beschikbaar zijn in een enkele kleur. Echter, bij de bewerking 

15 in de modules 32 — 36 blijken de verschillend gekleurde fragmenten toch weer te zijn 
samengevoegd tot de juiste karaktervormen (Fig. 7 C). 

Hoewel de uitvinding is toegelicht aan de hand van de bovenstaande beschrijving, 
is zij hier niet toe beperkt. De vakman zal zich realiseren dat binnen de reikwijdte van de 
navolgende conclusies alternatieve uitvoeringen mogelijk zijn, Deze worden geacht 

20 binnen de beschermingsomvang van het octrooi te zijn begrepen. 
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CONCLUSIES 

1 . Werkwijze voor het extraheren van informatie-elementen uit een kleurbevattend 
digitaal beeld, 
5 omvattende: 

- het in het digitale beeld onderscheiden van verbonden componenten, bestaande 
uit aaneengrenzende pixels met eenzelfde kleur; 

- het indelen van achtergrond - verbonden-componenten en andere verbonden 
componenten en het groeperen van aaneengrenzende genoemde andere verbonden 

10 componenten; 

- het toewijzen van verbonden compohenten, behorende tot een groep genoemde 
andere verbonden componenten, aan een voorgrond of aan de achtergrond op grond 
van een voorafbepaald toewijzingscriterium; en 

- het samenvoegen van aaneengrenzende, aan de voorgrond toegewezen 

15 verbonden componenten en het extraheren van een samengevoegd geheel als een 
informatie-element. 

2. Werkwijze volgens conclusie 1 , tevens omvattende een voorbereidingsstap welke 
omvat: 

20 - het quantiseren van de in een te bewerken digitaal beeld voorkomende kleuren 

in een beperkt aantal gequantiseerde kleuren en het vervangen van oorspronkelijk in de 
beeldsignalen voorkomende kleuren door gequantiseerde kleuren. 

3. Werkwijze volgens conclusie 1 of 2, waarin 

25 het genoemde toewijzingscriterium is gebaseerd op een vergelijking van de kleur 

van een toe te wijzen verbonden component met de kleuren van een groep genoemde 
andere verbonden componenten waar de toe te wijzen verbonden component deel van 
uitmaakt en met de kleur van een achtergrond - verbonden-component die de toe te 
wijzen verbonden component althans gedeeltelijk omgeeft. 

30 

4. Werkwijze volgens conclusie 3, waarin 

het genoemde toewijzingscriterium is gebaseerd op een vergelijking van 
de kleur van een toe te wijzen verbonden component met het gemiddelde van de 
kleuren van de groep verbonden componenten waar de toe te wijzen verbonden 
35 component deel van uitmaakt en met de kleur van de achtergrond - verbonden- 
component. 
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5. Werkwijze volgens conclusie 4, waarin 

het genoemde toewijzingscriterium daarin bestaat dat wanneer de kleur van een 
toe te wijzen verbonden component meer overeenkomt met het gemiddelde van de 
5 kleuren van de groep verbonden componenten waar de toe te wijzen verbonden 
component deel van uitmaakt dan met de kleur van de achtergrond - verbonden- 
component, de toe te wijzen verbonden component wordt toegewezen aan de 
voorgrond. 

10 6. Werkwijze volgens conclusie 1 of 2, waarin 

de genoemde andere verbonden componenten eerst op grond van hun 
eigenschappen worden ingedeeld in typen en waarin 

alleen verbonden componenten van voorafbepaalde typen geanalyseerd met het 
genoemde toewijzingscriterium. 

15 

7. Werkwijze voor het automatisch interpreteren van een kleurbevattend digitaal beeld, 
omvattende 

het extraheren van informatie-elementen uit het kleurbevattende digitale beeld 
volgens een der voorgaande conclusies en 
20 het uitvoeren van een automatische interpretatie-bewerking op basis van de ge- 

extraheerde informatie-elementen. 

8. Werkwijze volgens conclusie 7, waarin de automatische interpretatie-bewerking een 
lay-out-analyse omvat. 

25 

9. Werkwijze volgens conclusie 7, waarin de automatische interpretatie-bewerking een 
karakterherkenning omvat. 

10. Werkwijze volgens conclusie 7, waarin de automatische interpretatie-bewerking een 
30 herkenning van grafisch elementen in het beeld omvat. 

1 1 . Inrichting voor het extraheren van informatie-elementen uit een kleurbevattend 
digitaal beeld, omvattende: 

- ontvangstmiddelen voor het ontvangen van een digitale beeldsignalen 
35 overeenkomend met een kleurbevattend beeld; 
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- een classificatiemodule voor het in de digitale beeldsignalen onderscheiden van 
verbonden componenten, bestaande uit aaneengrenzende pixels met eenzelfde kleur; 

- een indelingsmodule voor het indelen van achtergrond - verbonden- 
componenten en andere verbonden componenten en het groeperen van 

5 aaneengrenzende genoemde andere verbonden componenten; 

- een toekenningsmodule voor het toewijzen van verbonden componenten aan 
een voorgrond of aan de achtergrond op grond van een voorafbepaald 
toewijzingscriterium; en 

- een samenstellingsmodule voor het samenvoegen van aaneengrenzende, aan 
10 voorgrond toegewezen verbonden componenten en het extraheren van een 

samengevoegd geheel als een informatie-element. 

12. Inrichting volgens conclusie 1 1 , tevens omvattende 

- een kleurquantisatiemodule voor het quantiseren van de in te bewerken digitale 
15 beeldsignalen voorkomende kleuren in een beperkt aantal gequantiseerde kleuren en 

het vervangen van oorspronkelijk in de beeldsignalen voorkomende kleuren door 
gequantiseerde kleuren. 

13. Inrichting volgens conclusie 11 of 12, waarin 

20 het genoemde toewijzingscriterium is gebaseerd op een vergelijking van de kleur 

van een toe te wijzen verbonden component met de kleuren van een groep genoemde 
andere verbonden componenten waar de toe te wijzen verbonden component deel van 
uitmaakt en met de kleur van een achtergrond - verbonden-component die de toe te 
wijzen verbonden component althans gedeeltelijk omgeeft. 

25 

14. Inrichting volgens conclusie 13, waarin 

het genoemde toewijzingscriterium is gebaseerd op een vergelijking van 
de kleur van een toe te wijzen verbonden component met het gemiddelde van de 
kleuren van de groep verbonden componenten waar de toe te wijzen verbonden 
30 component deel van uitmaakt en met de kleur van de achtergrond - verbonden- 
component. 



35 



15. Inrichting volgens conclusie 14, waarin 

het genoemde toewijzingscriterium daarin bestaat dat wanneer de kleur van een 
toe te wijzen verbonden component meer overeenkomt met het gemiddelde van de 
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kleuren van de groep verbonden componenten waar de toe te wijzen verbonden 
component deel van uitmaakt dan met de kleur van de achtergrond - verbonden- 
component, de toe te wijzen verbonden component wordt toegewezen aan de 
voorgrond. 

5 

16. Inrichting volgens conclusie 11 of 12, waarin 

de classificatiemodule is voorzien van middelen om genoemde andere verbonden 
componenten op grond van hun eigenschappen te classeren in typen en 

waarin een selectiemodule aanwezig is voor het selecteren van verbonden 
10 componenten van voorafbepaalde typen en alleen de geselecteerde verbonden 
componenten door te geven aan de verdelingsmodule. 

17. Inrichting voor het automatisch interpreteren van een kleurbevattend digitaal beeld, 
omvattende 

15 een inrichting voor het extraheren van informatie-elementen uit het 

kleurbevattende digitale beeld volgens een der conclusies 8 tot en met 13, en 

een interpretatie-eenheid voor het uitvoeren van een automatische interpretatie- 
bewerking op basis van de ge-extraheerde informatie-elementen. 

20 18. Inrichting volgens conclusie 17, waarin de automatische interpretatie-bewerking een 
lay-out-analyse omvat. 

19. Inrichting volgens conclusie 17, waarin de automatische interpretatie-bewerking een 
karakterherkenning omvat. 

25 

20. Inrichting volgens conclusie 17, waarin de automatische interpretatie-bewerking een 
herkenning van grafisch elementen in het beeld omvat. 

21 . Computerprogramma-product met programmacode die op een door een machine 
30 uitleesbare drager is opgeslagen, voor het uitvoeren van de werkwijze volgens een der 

conclusies 1 tot en met 6 en 7 tot en met 10, wanneer het programma in een computer 
wordt uitgevoerd. 
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22. Computerprogramma voor het uitvoeren van alle stappen volgens een der 
conclusies 1 tot en met 6 en 7 tot en met 10, wanneer het programma in een computer 



wordt uitgevoerd. 
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